cuda 并行加速 gemv - 程序员宅基地

cuda-使用cuda并行加速实现之gemv.zip

cuda cuda_使用cuda并行加速实现之gemv

一些改cuda加速的思路：FlashAttention、PagedAttention、LightSeq、ByteTransformer

FlashAttention一般指的是FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness这篇，当然Transformer Quality in Linear Time这篇里非要说FLASH = Fast Linear Attention with a Single ...

CUDA Cookbook by Eric

标签：学习深度学习 c++

Kernel Profiling Guide：介绍了如何profiling kernel，并透露了更多...CUDA C++ Programming Guide：介绍了CUDA C的编程模型,附录的内容也很丰富。CUDA C++ Best Practices Guide：介绍了怎样写CUDA会有更高的性能。

总结：大模型推理优化策略

标签：人工智能自然语言处理

总结：大模型推理优化策略

Transformer推理性能优化技术很重要的一个就是K V cache，能否通俗分析，可以结合代码?

标签：人工智能 transformer AIGC

KV cache对应的优化方法，总结成下表：由上表可以看出，KV cache是个值得投入精力去研究的一个重要方向，算法上有着许多未知的方法可以去探索，工程上相对滞后，至少在主流推理框架上对部分方向的优化策略相对保守...

论文解读-面向高效生成大语言模型服务：从算法到系统综述

标签：语言模型算法人工智能

在快速发展的人工智能（AI）领域中，生成式大型语言模型（llm）站在了最前沿，彻底改变了论文与数据交互的方式。然而，部署这些模型的计算强度和内存消耗在服务效率方面带来了重大挑战，特别是在要求低延迟和高吞吐...

LLM 推理优化

标签：人工智能

数据并行是一种将大型数据集分割成小块，然后在多个GPU上并行处理的技术。每个GPU处理数据的一个子集，并独立地执行相同的模型计算。最后，将所有GPU的结果汇总以得到最终输出。

关于BLAS的简单介绍

标签：其他

BLAS(Basic Linear Algebra Subprograms基础线性代数程序集)是进行向量和矩阵等基本线性代数操作的事实上的数值库。这些程序最早在1979年发布，是LAPACK(Linear Algebra PACKage)的一部分，便于建立功能更强的数值...

【tvm官网教程】张量表达与调度

【tvm官网教程】张量表达与调度目的1. 调度原语1.1 te常用接口1.2 stage常用成员函数欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮...

Theano2.1.12-基础知识之使用GPU

标签：使用基础知识 theano

本文转载自：https://www.cnblogs.com/shouhuxianjian/p/4590224.html 作者：shouhuxianjian 转载请注明该声明。来自：...using the GPU 想要看GPU的介绍性的讨论和对密集并行计算的使...

各种工具一览

标签：工具

目录 NIrCMD Doxygen frp Microsoft Visual C++ (MSVC) IntelMKL LLVM BLAS cuDNN AMI OpenMPI Eigen xterm turboboost wheel NEON OpenAIGym 中文分词工具 NCCL(NVIDIA Collective ...Ver....

paper 167：GPU的使用Theano之tutorial

Theano之使用GPU ...想要看GPU的介绍性的讨论和对密集并行计算的使用，查阅：GPGPU. theano设计的一个目标就是在一个抽象层面上进行特定的计算，所以内部的函数编译器需要灵活的处理这些计算...

深度学习_21天实战Caffe.pdf

深度学习_21天实战Caffe.pdf 原深度学习21天实战caffe学习笔记《1:深度学习的过往》 1. 深度学习DL： 1.1、有监督学习、无监督学习、过拟合、训练样本、泛化、训练集、验证集、测试集这些和深度学习有关的...

卷积神经网络在 ARM-CPU 上的推断计算综述

摘要深度学习在计算机视觉领域大放异彩，许多在传统方法下无法解决的问题正在被一一攻克。然而，高昂的计算成本也极大地限制了深度学习的使用，在移动端设备、嵌入式设备等计算资源比较拮据的平台上其计算密集的...

”cuda 并行加速 gemv“ 的搜索结果

cuda-使用cuda并行加速实现之gemv.zip

一些改cuda加速的思路：FlashAttention、PagedAttention、LightSeq、ByteTransformer

CUDA Cookbook by Eric

总结：大模型推理优化策略

Transformer推理性能优化技术很重要的一个就是K V cache，能否通俗分析，可以结合代码?

论文解读-面向高效生成大语言模型服务：从算法到系统综述

LLM 推理优化

关于BLAS的简单介绍

【tvm官网教程】张量表达与调度

Theano2.1.12-基础知识之使用GPU

各种工具一览

paper 167：GPU的使用Theano之tutorial

深度学习_21天实战Caffe.pdf

卷积神经网络在 ARM-CPU 上的推断计算综述

推荐文章